خوشه بندی اسناد متنی مبتنی بر مفاهیم همسایگی و شباهت معنایی
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد
- author ملیحه دانش
- adviser محمود نقیب زاده احد هراتی
- Number of pages: First 15 pages
- publication year 1390
abstract
خوشه بندی، روش داده کاوی قدرتمندی است که جهت کشف موضوع از اسناد متنی مورد استفاده قرار می-گیرد. در این زمینه الگوریتم های خانواده k-means به دلیل سادگی و سرعت بالا، در خوشه بندی داده هایی با ابعاد بالا، کاربرد فراوانی دارند. در این الگوریتم ها، معیار شباهت cosine، تنها شباهت میان زوج اسناد را اندازه گیری می کند که در مواقعی که خوشه ها به خوبی تفکیک نشده باشند، عملکرد مناسبی ندارد. درمقابل، مفاهیم همسایگی و اتصال با در نظرگرفتن اطلاعات سراسری در محاسبه میزان نزدیکی دو سند، عملکرد بسیار بهتری دارند. چنانچه میزان شباهت دو سند از حد آستانه ای بیشتر باشد آن دو سند همسایه اند و تعداد همسایه های مشترک میان آنها، مقدار تابع اتصال این دو سند را نشان می دهد. بنابراین با توجه به اینکه تنها دو حالت همسایگی و عدم همسایگی داریم که با صفر و یک نمایش داده می شوند، مقداری از اطلاعات را در مورد میزان شباهت میان اسناد از دست می دهیم که منجر به کاهش دقت خوشه بندی حاصل می شود. جهت رفع این مشکل، در گام اول لیستی از مقادیر گسسته را برای تعیین بازه ای از مقادیر آستانه به جای تنها یک مقدار، در نظر گرفتیم که به دنبال آن درجات متفاوتی از همسایگی، بر اساس میزان شباهت میان اسناد خواهیم داشت. همچنین جهت افزایش هر چه بیشتر دقت نتایج حاصل، از منطق فازی نیز بهره برده و مقدار شباهت میان اسناد را با استفاده از مقادیر عضویت فازی نمایش دادیم. به این ترتیب میزان همبستگی میان اسناد را با استفاده از منطق فازی بهبود داده و گام جدیدی در کاربردهای منطق فازی برداشتیم. همچنین در این مدل، روابط معنایی میان کلمات نادیده گرفته شده و تنها اسنادی با واژگان مشابه با یکدیگر مرتبط شده اند. در این پروژه پایانی از آنتولوژی wordnet جهت ایجاد مدل جدید نمایش اسناد بهره بردیم، بدین صورت که در آن از روابط معنایی به منظور وزن گذاری مجدد بسامد کلمات در مدل فضای برداری اسناد استفاده شده است. سپس مفاهیم همسایگی و اتصال را بر روی مدل حاصل اعمال نمودیم. نتایج حاصل از اعمال روش های پیشنهادی و ترکیبات آنها بر روی مجموعه داده های متن واقعی، حاکی از عملکرد موثر و مناسب تر الگوریتم پیشنهادی ما نسبت به روش های پیشین می باشد و می تواند جایگزین خوبی برای الگوریتم های پیشین در امر خوشه بندی اسناد باشد.
similar resources
خوشه بندی فراابتکاری اسناد فارسی اِکس اِم اِل مبتنی بر شباهت ساختاری و محتوایی
با توجه به رشد فزاینده ی تعداد اسناد xml، سازماندهی موثر این اسناد به منظور بازیابی اطلاعات مفید از آنها ضروری می باشد. یک راه حل امکان پذیر، انجام خوشه بندی بر روی اسناد xml به منظور کشف دانش است. مسئله کلیدی در خوشه بندی اسناد xml این است که چگونه می توان شباهت بین اسناد xml را اندازه گیری کرد. استفاده از روش های متداول خوشه بندی اسناد متنی که اطلاعات محتوایی را برای اندازه گیری شباهت سند بکا...
full textتشخیص برون افتادگی فضایی مبتنی بر شباهت معنایی همسایگی ها
با توجه به اینکه انتظار می رود داده هایی که از لحاظ موقیت مکانی به هم نزدیک هستند رفتار مشابهی نیز داشته باشند، لذا عموما برون افتادگی فضایی به صورت محلی و در همسایگی های نزدیک بررسی می شود. در بسیاری از پدیده ها رفتار اشیاء فضایی تحت تاثیر فرآیند ها و اشیاء پیرامون است. بنابراین برای انجام هرگونه تحلیل موثر لازم است ویژگی های فضایی و غیر فضایی اشیاء، روابط فضایی ضمنی و شفاف آن ها با دیگر اشیاء...
خوشه بندی اسناد متنی الکترونیکی بر اساس دانش پس زمینه و وزن دهی ابعاد و مفاهیم
خوشه بندی یا دسته بندی بدون نظارت با سازمان دهی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از متون دارد. نقش این سازمان دهی در موتورهای جستجو برای ارائه خوشه های معنادار مرتبط با پرس و جو، جهت پیشگیری از سردرگمی کاربر در حجم عظیمی از اسناد بازیابی شده بیشتر نمایان می شود. علاوه بر مشکلاتی نظیر تعداد ابعاد بسیار زیاد و تحلیل خوشه ای، متاسفانه دیدگاه متعارف خوشه بندی های افرازی و...
15 صفحه اولطبقه بندی معنایی تصاویر متنی مبتنی بر الگوی ارزشمندی متن
استخراج اطلاعات از تصاویر متنی شناسایی شده از مجرای اینترنت یکی از مهمترین معضلات سیستم های جمع آوری اطلاعاتی در حوزه تکنولوژی اطلاعات می باشد. این مسأله وقتی حادتر می گردد که بدانیم در بین انبوه تصاویر متنی تنها درصد ناچیزی از تصاویر متنی شناسایی شده، دارای ارزش اطلاعاتی می باشند. در این مقاله، جهت تجزیه و تحلیل تصاویر متنی و دسترسی به محتوای آنها، از یک روش طبقه بندی مبتنی بر ناحیه بندی تصویر...
full textبسط پرس وجو با خوشه بندی اسناد شبه بازخورد با شباهت حساس به پرس وجو
بسط پرسوجو بهعنوان یکی از روشهای انطباق پرسوجو، اثربخشی جستجو را در بازیابی اطلاعات افزایش میدهد. بازخورد شبه مرتبط (PRF) روشی برای بسط پرسوجو است که فرض میکند اسناد رتبه بالا از نتایج اولیه مرتبط به موضوع پرسوجو هستند و کلمات بسط را از این اسناد انتخاب میکند. درحالیکه ممکن است اسناد نامرتبط به پرسوجو در اسناد رتبهبالا وجود داشته باشد. روشهایی برای انتخاب اسناد مرتبط و نادیده گرفتن...
full textخوشه بندی اسناد مبتنی بر آنتولوژی و رویکرد فازی
داده کاوی که به عنوان استخراج دانش از پایگاه داده ها نیز شناخته می شود، روالی برای استخراج دانش ناشناخته از داده است. کاوش اسناد بر اساس روش های داده کاوی به استخراج اطلاعات و دانش از اسناد می پردازد. خوشه بندی اسناد یکی از مهمترین روش های کاوش اسناد است که دسته بندی بدون سرپرست اسناد به گروه های مختلف می باشد. سیستم های رایج بازیابی اطلاعات و خوشه بندی اسناد بر کلمات کلیدی استوار می باشند. با ...
full textMy Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023